Przeczytaj tabelę w dokumencie
Ten przykład kodu pokazuje, jak używać IronTesseract silnika OCR do wyodrębniania tekstu i danych tabelarycznych z dokumentu PDF.
- Tworzone jest wystąpienie silnika OCR
IronTesseract. - Zostaje zainicjalizowany obiekt
OcrInput, a plik PDF ("table.pdf") jest ładowany za pomocą metodyLoadPdf. - Silnik OCR przetwarza dokument za pomocą metody
ReadDocumentAdvanced, która zwraca bardziej szczegółowy obiektOcrResult. - Pierwsza tabela znaleziona w dokumencie jest dostępna poprzez
result.Tables.First(), a informacje o komórkach tej tabeli są wyodrębniane za pomocąCellInfos. - Lista danych komórek (
cellList) zawiera teraz komórki tabeli, w tym zawartość tekstową i inne szczegóły (np. pozycja komórki, rozmiar). - Ta metoda jest przydatna do wyodrębniania danych strukturalnych, takich jak tabele z plików PDF, co pozwala na programowe uzyskanie dostępu do tekstu w każdej komórce tabeli i jego przetwarzanie.

